François Chollet 對機器學(xué)習(xí)領(lǐng)域里「大肆炒作模型在單個任務(wù)中的表現(xiàn)」的慣例非常不滿,他認為這并不能體現(xiàn)「智慧」。比如 CNN 家族在 ImageNet 圖像分類中超越人類、AlphaGo 在圍棋中擊敗人類、OpenAI Five 在 DOTA2 中擊敗人類、AlphaStar 在星際 2 中擊敗人類,諸如此類的學(xué)術(shù)研究進展,即便確實是在非常復(fù)雜的任務(wù)中取得了比人類更好的表現(xiàn),我們也無法認可這些模型就擁有了「智慧」。相比之下,烏鴉、海豚之類的動物更被人類認為是「有智慧」的。所以,AI 系統(tǒng)是否擁有「智慧」的標(biāo)準(zhǔn)可能是什么樣的,我們又應(yīng)該用什么樣的方法測量 AI 系統(tǒng),這就是 François Chollet 在這篇論文中著重討論的。
核心觀點:我們不應(yīng)該測量某個具體能力,然后把它作為 AI 系統(tǒng)的適應(yīng)能力和靈活性的測量手段。只要有無限多的數(shù)據(jù),模型就可以記憶如何做決策。如果想要發(fā)展通用人工智能(AGI)的話,我們需要想辦法量化、測量「學(xué)習(xí)新能力的效率」。
1970 年代的時候,許多人都認為棋類游戲可以代表人類理性思維的至高水準(zhǔn),如果人類能用計算機解決棋類問題,就表明人類在認知、理解方面又達到了一個新的里程碑。但 IBM 的「深藍」出現(xiàn)并擊敗卡斯帕洛夫之后,大家發(fā)現(xiàn)整個研發(fā)過程并沒能幫助我們更好地理解人類思維。
深藍當(dāng)然是談不上「智慧」的,但我們會認為人類的棋類高手有很高的智慧。這其實是因為我們把下棋的水平和一類「元技能」聯(lián)系到了一起:我們認為棋下得好表示這個人有很強的邏輯思維能力,他除了下棋之外,在數(shù)學(xué)和推理方面也會很厲害。所以我們擬人化地理解 AI 的時候也會不由自主地走同樣的路線,認為能很好地掌握某種技能,也就掌握了其它一些相關(guān)的技能和思維,也就成了通用人工智能。
François Chollet 在論文中指出,DeepMind 的AlphaZero 這種棋類游戲智能體其實就既不靈活也不通用,他把它比做一個哈希表查找器,只不過在做一些局部敏感度的哈希函數(shù)計算而已。只要有了無限多的模擬計算結(jié)果,就完全可以直接在棋盤上的落子情況和理想的動作之間找到對應(yīng)關(guān)系。
Chollet 認為,現(xiàn)階段 AI 研究的「以任務(wù)表現(xiàn)為中心」的研究思路其實才是我們走向通用人工智能的瓶頸。他認為我們其實應(yīng)該走另一條路線,Hernandez-Orallo 路線:「AI 是這樣一門科學(xué)和工程學(xué),它造出的機器能完成從來沒有見過、從來沒有提前準(zhǔn)備過的任務(wù)」。
在論文的 II.2 節(jié),Chollet 正式提出了他的核心想法:要了解一個系統(tǒng)的智慧水平,應(yīng)當(dāng)測量它在一系列不同任務(wù)中表現(xiàn)出的獲得新能力的效率;這和先驗、經(jīng)驗、泛化難度都相關(guān)。
為了避免只有局部泛化能力的系統(tǒng)在某些特定任務(wù)中可以用訓(xùn)練「換來」好的表現(xiàn),Chollet 把先驗的條件限制為「發(fā)展科學(xué)理論」(developmental science theory)中允許的「核心知識」,比如基礎(chǔ)物理學(xué)、算數(shù)、幾何學(xué)知識,以及對意圖的基本理解。
根據(jù)他勾畫出的理想做法,Chollet創(chuàng)建了一個 ARC 數(shù)據(jù)集,「Abstraction and Reasoning Corpus」,意為「抽象和推理語料庫」 。這個數(shù)據(jù)集的設(shè)計方法借鑒了人類的 IQ 測試中的抽象和推理部分 (反映流體智力 fluid intelligence),內(nèi)容比如
ARC 數(shù)據(jù)集中包含 400 個訓(xùn)練任務(wù)以及 600 個評價任務(wù)。這個數(shù)據(jù)集的核心特點包括:
《The Measure of Intelligence》這篇論文是對近幾年流行的「大數(shù)據(jù)、高計算量解決一切問題」的做法的旗幟鮮明的反對,而且Chollet 也在論文中介紹了許多歷史背景,這讓這篇論文對不熟悉相關(guān)話題的讀者來說也不那么難懂。
François Chollet 自己在發(fā)布論文的同時,也在推特上從介紹了一些背景和自己的想法:
我剛剛公開的這篇稍微有點長的論文是關(guān)于「智慧」的定義和測量的,論文里還介紹了一個新的 AI 評價數(shù)據(jù)集 ARC(抽象和推理語料庫)。在過去的兩年里我自己一直在斷斷續(xù)續(xù)地研究它。
在過去的十年中我經(jīng)常在演講里、聊天里或者推特上談到有關(guān)「智慧」的話題,這篇論文就是我嘗試給它做出一個正式的定義的結(jié)果,讓它有幫助、可實施。ARC 數(shù)據(jù)集本身也讓我開啟了一個很有趣的研究方向,我希望你們也會覺得它有用。
我需要強調(diào)一下,我在這篇論文里給出了智慧的定義,但并不意味著它就是智慧的真正的、唯一的定義;這也不是這些討論的重點所在。智慧是一件很復(fù)雜的事情,在不同的語境下可以有不同的體現(xiàn)。對智慧,以及對于 AI,可能有很多種定義方式都是可行的。
最近我在算法開發(fā)方面也有一些進展,有一個算法已經(jīng)起碼能夠解決 ARC 數(shù)據(jù)的一小部分;它是基于認知理論的(自動抽象),我在這個課題上已經(jīng)花了很多時間精力了。我希望在不久的將來就可以和大家分享這些想法和代碼。
我從 2009 年開始就有了這個理論的大概想法,它從 ONEIROS 項目 (Open-ended Neuro-Electronic Intelligent Robot Operating System) 中借鑒了很多重要的元素,ONEIROS 是一個我在 2009 年到 2012 年之間參與開發(fā)過的一個通用 AI 架構(gòu)(后來我在 2014 年也做過一段時間,然后就基本廢棄了)。它的基礎(chǔ)是一個經(jīng)典的強化學(xué)習(xí)的思維模式,主要關(guān)注的是,1,學(xué)習(xí)時空特征的模塊化、層級化的映射關(guān)系(通過 PMI 矩陣分解,而不是梯度下降);2,通過一種注意力機制實現(xiàn)上下文轉(zhuǎn)換;3,固有動機(也就是好奇心)
它的宣傳語是「認識是一種動態(tài)的、模塊層次化的感知&運動信息空間的映射」。我把這個稱作「映射理論」 —— 應(yīng)該有那么兩三個人能記得我在 2010 到 2012 年之間提到過這個。我覺得 ONEIROS 在好幾個方面都做對了(尤其考慮到在那個時候就已經(jīng)有這樣的思維高度),但可惜的是它最終還是沒能解決真正核心的問題:「抽象」的本質(zhì)。這就是我現(xiàn)在在嘗試解決的,也是我設(shè)計 ARC 所針對的問題。
大概可以這么說,我們(研究人員以及普通大眾)對 AI 技術(shù)的認知里的所有錯誤的部分,都可以把原因歸結(jié)為過度的擬人化。但 AI 很狡猾,人類設(shè)計 AI 、訓(xùn)練 AI 想讓它模仿哪一兩個人類技能,它就會完完全全地只模仿這一兩個技能,而完全學(xué)不到其它的(即便看起來很相關(guān))的技能。在這個過程里,AI 還會嘗試走所有有可能的捷徑、發(fā)掘各種能帶來提升的小竅門甚至環(huán)境中的 bug,而不會主動遵循人類本來規(guī)劃的「正道」,最終得到的系統(tǒng)也就和人類的思維沒有任何共通之處。
可以把 AI 比做一部認知動畫——表面上看起來它能動,但其實只不過是在紙上畫出的一系列近似的、模仿人類情感和動作的圖形而已。Sophia 這樣的機器人都可以算是當(dāng)代 AI 的典范。
AI 相比于認知抽象能力,就像動畫人物相比于人類情感一樣。最關(guān)鍵的是,即便當(dāng)前的 AI 系統(tǒng)中體現(xiàn)出了不少數(shù)據(jù)抽象后的編碼、可操作化特征,但這基本上也和真正的智慧中的「自動抽象」沒什么關(guān)系;就像創(chuàng)造新的動畫角色和創(chuàng)造新的生命形式?jīng)]什么關(guān)系一樣。
在論文公開后的幾天內(nèi),許多研究人員都閱讀論文并給出好評,以及自己嘗試 ARC 中的任務(wù)并玩得不亦樂乎。許多人都表示贊同 François Chollet 對智慧的觀點,而且極為推薦這篇論文。雷鋒網(wǎng) AI 科技評論也建議感興趣的讀者仔細閱讀論文原文,近距離感受這趟思維之旅。



咨詢郵箱:
咨詢熱線:
